Comparaison de critères de pureté pour l'intégration de connaissances en clustering semi-supervisé
نویسندگان
چکیده
Résumé. L’utilisation de connaissances pour améliorer les processus de fouille de données a mobilisé un important effort de recherche ces dernières années. Il est cependant souvent difficile de formaliser ce type de connaissances, comme celles-ci sont souvent dépendantes du domaine. Dans cet article, nous nous intéressons à l’intégration de connaissances sous la forme d’objets étiquetés dans les algorithmes de clustering. Plusieurs critères permettant d’évaluer la pureté des clusters sont présentés et leur comportement est comparé sur des jeux de données artificiels. Les avantages et les inconvénients de chaque critère sont analysés pour aider l’utilisateur à faire un choix.
منابع مشابه
SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings
Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...
متن کاملEvaluation de résultats de segmentation d’images
Résumé – Nous présentons dans cet article un état de l’art des méthodes existantes d’évaluation de résultats de segmentation. Leurs avantages et inconvénients sont abordés et une étude comparative de plusieurs de ces critères est effectuée en mode non supervisé et supervisé. Nous avons utilisé une base de cent vingt images synthétiques composées de régions uniformes et texturées ainsi qu’une ba...
متن کاملClustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D
Résumé. Dans cet article, nous proposons une approche qui combine les méthodes statistiques avancées et la flexibilité des approches interactives manuelles en clustering visuel. Nous présentons l’interface Semi-Supervised Visual Clustering (SSVC). Sa contribution principale est l’apprentissage d’une métrique de projection optimale pour la visualisation en coordonnées en étoiles ainsi que pour l...
متن کاملUne approche filtre pour la sélection de variables en apprentissage non supervisé
Résumé. La Sélection de Variable (SV) constitue une technique efficace pour réduire la dimension des espaces d’apprentissage et s’avère être une méthode essentielle pour le pré-traitement de données afin de supprimer les variables bruitées et/ou inutiles. Peu de méthodes de SV ont été proposées dans le cadre de l’apprentissage non supervisé, et, la plupart d’entre elles, sont des méthodes dites...
متن کاملSemi-supervised incremental clustering of categorical data
Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour l...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010